เกินกว่าบทความ: การเชื่อมโยงแนวคิดทางทฤษฎีกับการประยุกต์ใช้งานด้านวิศวกรรม

การสร้างสะพานข้ามช่องว่างระหว่างการอ่านงานวิจัยอย่างผู้ชมที่ไม่ได้มีส่วนร่วม กับการบรรลุความเชี่ยวชาญด้านวิศวกรรมนั้น จำเป็นต้องเจาะลึกเข้าไปในหัวใจทางคณิตศาสตร์ของโมเดลแปลง (Transformer) โดยการเปลี่ยนจากการเข้าใจเชิงทฤษฎีมาสู่การประยุกต์ใช้งานจริง เป็นเพียงวิธีเดียวในการถอดรหัสความซับซ้อนที่ซ่อนอยู่ในพื้นที่ลักษณะแบบมิติสูง

1. หลักเหตุผลทางคณิตศาสตร์ของการปรับขนาด

กลไกหลักของโมเดลภาษาสมัยใหม่คือการจัดลำดับความสำคัญโดยการคูณจุดที่ปรับขนาดแล้ว. รายละเอียดด้านวิศวกรรมที่สำคัญซึ่งมักถูกมองข้ามในทฤษฎีคือกฎการปรับขนาด:

คะแนนความสนใจดิบต้องหารด้วยรากที่สองของขนาดมิติของคีย์ ( $\sqrt{d_{k}}$ ).
ทำไม?ซึ่งป้องกันไม่ให้ผลคูณจุดใหญ่เกินไป ซึ่งจะทำให้ฟังก์ชันโซฟต์แม็กซ์เข้าสู่พื้นที่ที่มีเกรเดียนต์ที่เล็กมากซึ่งทำให้ความสามารถของโมเดลในการเรียนรู้ในระหว่างกระบวนการถ่ายโอนย้อนกลับแทบจะหมดไป

2. จากทฤษฎีสู่การดำเนินการด้วยเทนเซอร์

การเข้าใจเชิงวิศวกรรมเกี่ยวข้องกับการเปลี่ยนจากวงจรแนวคิดไปสู่การคูณเมทริกซ์แบบขนานที่มีประสิทธิภาพสูง.

การใส่ข้อมูลลำดับ:แตกต่างจากโมเดลแบบ RNN ที่มีลำดับโดยธรรมชาติ แต่โมเดลแปลงไม่มีความเข้าใจในลำดับ วิศวกรต้องเขียนโค้ดฟังก์ชันไซน์และโคไซน์เอง (การเข้ารหัสตำแหน่ง) เพื่อใส่ข้อมูลลำดับ
กลไกความมั่นคง:การประยุกต์ใช้งานต้องอาศัยการใช้อย่างมีกลยุทธ์การเชื่อมต่อแบบคงที่ และการปกติแบบเลเยอร์ (LayerNorm)เพื่อต่อต้านการเปลี่ยนแปลงของตัวแปรภายในและรับประกันว่ากระบวนการฝึกอบรมจะคงความมั่นคง

ข้อคิดเชิงวิศวกรรม

ความเชี่ยวชาญแท้จริงเกิดขึ้นจากการเขียนโปรแกรมทีละบรรทัด ถ้าพึ่งพาเอกสารทางวิชาการเพียงอย่างเดียว มักนำไปสู่ความเข้าใจผิดเกี่ยวกับเสถียรภาพของเกรเดียนต์และความสามารถในการคำนวณ

การนำเสนองานด้วยภาษาไพธอน (PyTorch)

นำเข้า torch
นำเข้า torch.nn เป็น nn
นำเข้า math
ฟังก์ชัน_scaled_dot_product_attention(query, key, value):
# คำนวณ d_k (มิติของคีย์)
    d_k = query.size(-1)
# คำนวณคะแนนความสนใจดิบ
# เปลี่ยนจากลูปที่ง่ายๆ มาเป็นการคูณเมทริกซ์
    คะแนน = torch.matmul(query, key.transpose(-2, -1))
# ใช้กฎการปรับขนาดเพื่อป้องกันเกรเดียนต์ที่เล็กมาก
    scaled_scores = คะแนน / math.sqrt(d_k)
# ใช้ฟังก์ชันโซฟต์แม็กซ์เพื่อหาค่าน้ำหนักความสำคัญ
    attention_weights = torch.softmax(scaled_scores, dim=-1)
# ผลลัพธ์คือผลรวมน้ำหนักของค่าต่างๆ
คืนค่า torch.matmul(attention_weights, value)

กลไก QKV

การถอดประกอบเชิงภาพว่าเมทริกซ์ Query, Key และ Value ทำงานร่วมกันอย่างไรเพื่อสร้างเวกเตอร์บริบทที่มีน้ำหนัก

คำถามที่ 1

ทำไมต้องใช้ตัวคูณปรับขนาด (

\sqrt{d_{k}}

) กับคะแนนความสนใจ?

เพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำ

เพื่อป้องกันเกรเดียนต์ที่เล็กมากในฟังก์ชันโซฟต์แม็กซ์

เพื่อลดจำนวนพารามิเตอร์

เพื่อเร่งความเร็วของตัวแยกคำ BPE

คำถามที่ 2

ส่วนประกอบใดที่จำเป็นต้องใช้เพื่อให้โมเดลแปลงมีความเข้าใจลำดับของข้อมูล?

การปกติแบบเลเยอร์

เครือข่ายแบบเฟดฟอร์เวิร์ด

การเข้ารหัสตำแหน่ง

การแคช KV